檔案7:L11302 常見的機器學習模型(100題)
共100題(難度比照初級樣題)
由大綱出題:Yes(參考:初級大綱.txt - L11302 常見的機器學習模型)
「線性迴歸 (Linear Regression)」屬於何種機器學習模型範疇?
A. 分群 (Clustering)
B. 監督式學習,用於預測連續數值
C. 無監督式學習
D. 強化式學習
答案:
B
解析:線性迴歸為典型的監督式迴歸模型,依據標籤(連續值)訓練。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第12頁)
「羅吉斯迴歸 (Logistic Regression)」實際上最常用於?
A. 迴歸預測房價
B. 分群演算法
C. 二元分類,將輸出映射到0或1
D. 強化式策略學習
答案:
C
解析:Logistic Regression雖名為迴歸,實際透過sigmoid函式做二元分類。
由講義出題:No(外部延伸參考)
決策樹 (Decision Tree) 通常是透過什麼原則進行特徵選擇?
A. 最大化資訊增益或最小化不純度(如基尼係數)
B. 隨機指定
C. 根據特徵名排序
D. 完全不考慮分裂準則
答案:
A
解析:常用的決策樹演算法(如ID3, C4.5, CART)皆透過量測分裂後資訊增益或基尼係數以決定最佳分裂特徵。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第20頁)
「隨機森林 (Random Forest)」中的每棵樹,樣本和特徵的選擇方式是?
A. 有放回地隨機抽取部分資料 + 隨機抽取特徵子集,再訓練樹
B. 全部資料+全特徵
C. 依序修剪
D. 僅針對樹根做隨機
答案:
A
解析:Random Forest使用Bagging概念對資料做bootstrap抽樣,且每分裂節點時隨機選部分特徵。
由大綱出題:Yes(參考:初級大綱.txt - L11302 常見的機器學習模型)
支持向量機 (SVM) 的關鍵概念為?
A. 只適用回歸
B. 尋找能最大化類別間邊界距離的超平面,常用於分類
C. 不考慮間隔
D. 與核函式無關
答案:
B
解析:SVM 透過最大化類別間的margin,提高泛化能力,核函式可處理非線性。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第28頁)
「KNN (K-Nearest Neighbors)」的主要決策依據是什麼?
A. 計算測試樣本與訓練樣本之距離,取最接近的K個鄰居投票決策
B. 建立一棵決策樹
C. 加權線性方程
D. 使用隱含馬可夫模型
答案:
A
解析:KNN 屬於懶惰學習算法,不需要明確的訓練階段,只在預測時找最近鄰居決定類別或數值。
由講義出題:No(外部延伸參考)
「Naive Bayes」在文字分類(如垃圾郵件分類)中常見原因是?
A. 訓練與預測速度快,對高維稀疏資料表現尚可
B. 無法處理文字
C. 須龐大計算量
D. 容易過度擬合
答案:
A
解析:Naive Bayes 假設特徵條件獨立,對文本型高維特徵仍能有效學習,且計算簡單。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第38頁)
「集成學習 (Ensemble)」如Bagging、Boosting的核心想法是?
A. 結合多個弱模型的預測,透過投票或加權讓最終結果更佳
B. 單模組必然勝過集成
C. 只適用線性回歸
D. 與多模型無關
答案:
A
解析:Bagging(如隨機森林)並行投票;Boosting(如XGBoost)序列補誤差,共同提升效能。
由大綱出題:Yes(初級大綱.txt - L11302 常見的機器學習模型)
線性模型常做特徵工程,原因是?
A. 無法加入新特徵
B. 線性模型本身只擬合線性關係,透過人工新增交叉或多項式特徵可處理複雜關係
C. 保持原樣最佳
D. 與模型無關
答案:
B
解析:線性模型要學到彎曲或交互效應,需顯式加入非線性特徵(如x1*x2,x^2)。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第52頁)
在樹模型中,若沒有任何限制,可能會如何?
A. 樹會持續深度生長,最終過擬合
B. 準確率一直提升,無上限
C. 無法生成樹
D. 僅能生成一層
答案:
A
解析:決策樹若不做max_depth或最小樣本分裂等限制,易高度擬合訓練集雜訊。
由講義出題:Yes(參考:01_AI基礎理論_講義.pdf 第80頁)
「深度學習 (Deep Learning)」中的神經網路與傳統ML模型相比,關鍵不同在於?
A. 多層神經網路可自行學習複雜特徵表示,尤其在影像、語音等領域有優勢
B. 深度學習不需要資料
C. 一定比傳統模型更快
D. 僅能做回歸
答案:
A
解析:多層網路具自動特徵學習能力,且在大數據與GPU運算支持下大放異彩。
由講義出題:No(外部延伸參考)
「神經網路 (Neural Network)」中,激活函式 (Activation) 的作用是?
A. 僅做線性輸出
B. 引入非線性,使網路能表達更複雜的函式關係
C. 加速資料讀取
D. 不在訓練流程中
答案:
B
解析:若無激活函式,每層都是線性疊加,最終仍是線性模型,無法學習高階非線性。
由大綱出題:Yes(初級大綱.txt - L11302 常見的機器學習模型)
「深度前饋網路 (Feedforward NN)」與「捲積神經網路 (CNN)」差異為?
A. CNN在隱藏層中使用捲積與池化結構,擅長處理影像等具有空間資訊的資料
B. 完全無差別
C. 前饋網路只能處理序列資料
D. CNN無法用於影像
答案:
A
解析:CNN特點是卷積層與池化層,可抽取空間結構特徵,常用於影像任務。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第45頁)
隨機森林與梯度提升樹 (GBM) 的主要差異在?
A. RF採Bagging並行訓練多樹;GBM序列訓練,後續樹補前面殘差
B. RF只可處理回歸
C. GBM只可處理分類
D. 無本質差異
答案:
A
解析:RF並行投票;GBM序列boost。兩者都是樹集成,但過程截然不同。
由講義出題:No(外部延伸參考)
「Multinomial Naive Bayes」通常應用於?
A. 處理二分類連續特徵
B. 文字分類(如Bag of Words計數) 等多分類場景
C. 數值回歸
D. 與文本無關
答案:
B
解析:多項式NB特別適合詞頻向量(計數型)的多分類任務,如文本分類。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第60頁)
「Lasso (L1)」與「Ridge (L2)」回歸的相同點是?
A. 皆屬正則化方法,透過懲罰權重大小來抑制過擬合
B. L1是正則化,L2不是
C. Ridge會使權重=0
D. 兩者都只能做二元分類
答案:
A
解析:L1與L2都在目標函式中加入權重懲罰項,只是形式不同(L1=|w|、L2=w^2)。
由講義出題:Yes(參考:01_AI基礎理論_講義.pdf 第85頁)
「RNN (Recurrent Neural Network)」特別適合處理哪種資料型態?
A. 序列型(如時間序列、自然語言)資料
B. 靜態影像
C. 圖像分割
D. 純結構化表格
答案:
A
解析:RNN使用隱狀態可記錄序列上下文資訊,常應用於語音、語言、時間序列預測等。
由講義出題:No(外部延伸參考)
「強化學習 (Reinforcement Learning)」的學習方式與監督式學習不同點是?
A. RL有明確輸入輸出標籤
B. RL透過與環境互動並獲得獎勵或懲罰,累積試誤經驗
C. RL不能學習策略
D. 監督式無需標籤
答案:
B
解析:強化式學習不預先提供每一步正確答案,而是透過獎懲在連續行動中學得最佳策略。

"
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第70頁)
「GBDT (Gradient Boosting Decision Tree)」與「XGBoost」之差異?
A. XGBoost是GBDT的工程升級版本,增加並行、正則化與缺失值處理等優化
B. 兩者毫無關係
C. XGBoost只能做回歸
D. GBDT較快於XGBoost
答案:
A
解析:XGBoost 在GBDT基礎上做了許多工程改進(如並行、樹方法優化),效能普遍較好。
由講義出題:Yes(參考:01_AI基礎理論_講義.pdf 第88頁)
卷積神經網路 (CNN) 最早在哪種領域展現強大效果?
A. 圖像辨識,如ImageNet
B. 時序預測
C. 強化式學習遊戲
D. 客戶分群
答案:
A
解析:CNN在影像分類中大幅超越傳統手工特徵方法,如LeNet, AlexNet的誕生即突破ImageNet。
由大綱出題:Yes(初級大綱.txt - L11302 常見的機器學習模型)
K-Means屬於哪一類模型?
A. 非監督式分群
B. 監督式分類
C. 迴歸分析
D. 強化式學習
答案:
A
解析:K-Means是將資料自動分成K群的演算法,並無標籤,屬非監督式分群。
由講義出題:No(外部延伸參考)
「DBSCAN」與「K-Means」在分群時有何差別?
A. DBSCAN不需預設群數,根據密度區域形成群,能發現任意形狀叢集
B. DBSCAN需要固定K
C. K-Means可找任意形狀
D. 兩者無任何差異
答案:
A
解析:DBSCAN透過ε鄰域和MinPts定義密度,能自動發現叢集並標記雜點;K-Means要固定K且適用球形叢集。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第92頁)
在隨機森林中,哪些方法可用來防止樹過度擬合?
A. 限制樹深 (max_depth)、設定最小樣本葉數 (min_samples_leaf) 等參數
B. 無法防止
C. 測試集調整
D. 只需移除隨機性
答案:
A
解析:雖然RF本身已平均多樹降低過擬合,但仍可透過樹的max_depth等參數控制單棵樹複雜度。
由大綱出題:Yes(初級大綱.txt - L11302 常見的機器學習模型)
假設你要做「文件分類」,初步會選哪種常見模型做 baseline?
A. Naive Bayes 或 Logistic Regression 搭配TF-IDF
B. K-Means
C. 隨機森林無法做分類
D. 僅能KNN
答案:
A
解析:文本分類初級基線往往用朴素貝氏或Logistic Regression配合TF-IDF,速度快成效可觀。
由講義出題:No(外部延伸參考)
Gradient Boosting為何能不斷改善模型表現?
A. 每階段學習前一階段殘差,逐步修正誤差
B. 一次性平均多棵樹
C. 只隨機挑特徵
D. 不適用迭代
答案:
A
解析:Boosting(尤其GBM)透過序列化加強,後面模型集中學習前面尚未解決的錯誤。
由講義出題:Yes(參考:01_AI基礎理論_講義.pdf 第92頁)
使用「RNN (Recurrent Neural Network)」時,長序列會出現何種常見問題?
A. 梯度消失或爆炸,導致難以學習遠距資訊
B. 記憶所有序列
C. 只可做影像
D. 迴歸分析
答案:
A
解析:RNN在長序列下梯度反傳時可能指數衰減(消失)或增長(爆炸),故有LSTM/GRU改進。
由講義出題:No(外部延伸參考)
KNN 做回歸時,預測值如何計算?
A. 無法做回歸
B. 找到K個最近鄰樣本的平均值或加權平均
C. 距離越遠權重越大
D. 僅能投票
答案:
B
解析:KNN除用於分類,也可用於回歸,將K鄰點的標籤取平均(或加權平均)即為預測。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第72頁)
「Perceptron」是什麼?
A. 最早期的線性分類器,單層感知器能處理可線性分的問題
B. CNN網路
C. 回歸演算法
D. 貝氏方法
答案:
A
解析:感知器(Perceptron)是啟蒙時期的神經元模型,對線性可分問題可收斂,但無法處理非線性。
由大綱出題:Yes(初級大綱.txt - L11302 常見的機器學習模型)
「GAN (Generative Adversarial Network)」屬於哪種類型的模型?
A. 鑑別式 (Discriminative) 模型
B. 生成式 (Generative) 模型,由生成器與鑑別器互相對抗
C. 僅能回歸
D. 不能生成資料
答案:
B
解析:GAN 由生成器(產生假樣本)與判別器(判定真偽)對抗訓練,可生成接近真實的資料,如圖像。
由講義出題:No(外部延伸參考)
在LSTM與GRU等改進型RNN中,為何能緩解梯度消失問題?
A. 透過門控機制 (Gate) 保留長期記憶並有選擇地忘記不必要資訊
B. 大幅增加參數
C. 與梯度消失無關
D. 全部改用線性激活
答案:
A
解析:LSTM/GRU 引入輸入/遺忘/輸出門,保留長期依賴信息、減少梯度衰減。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第82頁)
「凸優化 (Convex Optimization)」在某些模型中的重要性是?
A. 若損失函式是凸的,就能保證找到全域最小值,像線性/邏輯迴歸即是
B. 只表示梯度消失
C. 使模型不收斂
D. 與優化無關
答案:
A
解析:凸函式只存在一個全域極小點,梯度下降能收斂到該點;例如線性回歸 MSE, logistic回歸 cross-entropy 都是凸問題。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第98頁)
「LightGBM」相較於 XGBoost,哪項特色最為人熟知?
A. 採用葉節點增長(Leaf-wise)策略 + 直方圖優化,速度更快並能處理大規模資料
B. 僅能小資料
C. 與XGBoost無差別
D. 須固定特徵數不變
答案:
A
解析:LightGBM用leaf-wise生長和直方圖加速技術,可降低計算量,對大數據更高效。
由講義出題:No(外部延伸參考)
「貝葉斯最佳化 (Bayesian Optimization)」主要在解決什麼問題?
A. 高成本函式或黑箱函式的參數尋優,如模型超參數
B. K-Means初始中心選擇
C. 直接梯度下降
D. 與調參無關
答案:
A
解析:貝葉斯最佳化不需要顯式梯度,可用於超參數搜尋,尤其評估昂貴時優於網格/隨機搜索。
由大綱出題:Yes(初級大綱.txt - L11302 常見的機器學習模型)
下列哪一個不是「集成學習」的方法?
A. PCA降維
B. Bagging (如隨機森林)
C. Boosting (如XGBoost)
D. Stacking (堆疊集成)
答案:
A
解析:PCA是降維技術,不屬於集成學習。B、C、D皆為結合多模型提升表現的方法。

"
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第108頁)
在GBDT中,學習率 (learning rate) 與樹棵數 (n_estimators) 的取捨是?
A. 較低的學習率通常需要更多棵樹,較穩定但訓練時間較長
B. 學習率越大越好
C. 棵數越少效果越好
D. 與調參無關
答案:
A
解析:學習率小 → 每次修正幅度小,需更多迭代;學習率大 → 易震盪或過擬合。需同時調整二者。

"
由講義出題:No(外部延伸參考)
LGBM (LightGBM)與CatBoost都屬何種模型家族?
A. 深度神經網路
B. 梯度提升樹(Boosting) 的變體
C. CNN卷積模型
D. 純線性模型
答案:
B
解析:LightGBM與CatBoost均是提升樹模型(Boosting)的實作,針對速度與類別特徵等做優化。

"
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第115頁)
SVM若要處理多類別問題,一般採哪種策略?
A. One-vs-One 或 One-vs-Rest 的二分類擴充
B. 直接端到端多分類
C. 只能做二分類
D. 與多分類無關
答案:
A
解析:SVM本身為二分類器,多類別可透過OvO(每對類別一分類器) 或OvR 方式擴充。

"
由大綱出題:Yes(初級大綱.txt - L11302 常見的機器學習模型)
「K-Means」演算法對初始中心的選擇敏感嗎?
A. 是,初始中心不同可能導致收斂到不同局部最小
B. K-Means不需初始中心
C. 一定可得到全域最佳
D. 與初始無關
答案:
A
解析:K-Means對初始質心敏感,故常用K-Means++等方法改良初始點選擇。

"
由講義出題:No(外部延伸參考)
若使用線性SVM時發現資料並非線性可分,可以怎麼辦?
A. 放棄
B. 引入核函式 (RBF、多項式等) 轉為非線性SVM
C. 只能做決策樹
D. 與可分無關
答案:
B
解析:核SVM可映射到高維特徵空間來做線性可分,進而解決非線性問題。
由講義出題:No(外部延伸參考)
在CNN中,為何使用「池化層 (Pooling)」?
A. 降低空間維度,減少參數並增強平移不變性
B. 增加計算量
C. 提高解析度
D. 與CNN無關
答案:
A
解析:Pooling(如 max/average pooling)能縮小特徵圖大小並保留關鍵訊號,提升模型穩健性。
由講義出題:Yes(參考:01_AI基礎理論_講義.pdf 第95頁)
訓練神經網路時常使用「Dropout」層,其功用為?
A. 隨機丟棄部分神經元,避免過度擬合
B. 增加過擬合
C. 僅做資料標註
D. 刪除整個隱藏層
答案:
A
解析:Dropout在訓練中隨機使一些神經元失活,減少互相依賴並提升泛化能力。
由講義出題:No(外部延伸參考)
在SVM中使用 L1 損失或 L2 損失,有何差異?
A. L1損失對錯誤分類懲罰方式不同於L2,L2更平滑而L1更易稀疏
B. 與懲罰無關
C. 相同
D. SVM不含損失
答案:
A
解析:SVM可定義不同形式的Hinge損失(L1 or L2);L2 Hinge更平滑,L1對誤差線性懲罰。
由大綱出題:Yes(初級大綱.txt - L11302 常見的機器學習模型)
若要做「主成分分析 (PCA)」後再餵入分類模型,其目標是?
A. 用PCA當最終分類
B. 先降維移除雜訊與冗餘,再以較少特徵訓練分類器
C. 增加模型參數
D. 與分類無關
答案:
B
解析:先降維能加速訓練並減少過擬合風險,保留主要變異資訊後再做分類。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第140頁)
「梯度提升樹 (Gradient Boosted Tree)」若連續疊加太多樹且學習率過大,會怎樣?
A. 容易過擬合,需配合Early Stopping或適度正則化
B. 準確率一定最高
C. 只能用在小資料
D. 不受影響
答案:
A
解析:Boosting在過多疊加+大學習率下易記住雜訊,故要監控驗證誤差或用正則化方式避免。
由講義出題:No(外部延伸參考)
KNN 在高維度(如百維以上)為什麼常表現不佳?
A. 距離度量失去區分度,大部分點都相似距離
B. 高維度更好找鄰居
C. 無任何影響
D. KNN不需要距離
答案:
A
解析:高維度下,樣本間距離差異變小,「維度詛咒」使KNN鄰居概念不再有效。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第155頁)
CatBoost 相較於 XGBoost、LightGBM,有何特色?
A. 針對類別特徵 (Categorical Feature) 有更好的原生編碼方式,減少人工處理
B. 無法處理類別特徵
C. 只能做回歸
D. 僅在小資料能用
答案:
A
解析:CatBoost有自動處理類別特徵(Ordered Target Statistics等),對含類別欄位的資料成效好。
由大綱出題:Yes(初級大綱.txt - L11302 常見的機器學習模型)
「AutoEncoder」屬於哪種模型類別?
A. 一種非監督式神經網路,用於壓縮與重建資料
B. 只能分類
C. 只能做迴歸
D. 貝氏方法
答案:
A
解析:自編碼器(AutoEncoder)透過中間瓶頸層學到資料低維表示,再解碼重建輸入,用於降維或特徵學習。
由講義出題:No(外部延伸參考)
在迴歸問題中,使用「Huber Loss」的好處是?
A. 結合MSE與MAE的特性,對outlier有更高的韌性
B. 無法處理outlier
C. 一定比MSE更差
D. 只適合樹模型
答案:
A
解析:Huber在誤差小時類似MSE(平滑),誤差大時類似MAE(對異常值敏感度低)。
由講義出題:Yes(參考:01_AI基礎理論_講義.pdf 第100頁)
「Transormer 變形模型」最大的創新之一是?
A. 透過注意力機制 (Self-Attention) 替代RNN/CNN處理序列,可大幅並行訓練
B. 只做圖像
C. 只能單向資訊
D. 放棄任何注意力
答案:
A
解析:Transformer在自然語言等領域成功主要靠多頭注意力機制與並行結構,擺脫RNN序列依賴。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第200頁)
綜觀「L11302 常見的機器學習模型」上半部分,下列哪句最能代表重點?
A. 不同模型各有特長,需根據資料性質與目標選擇
B. 只有隨機森林能應用
C. CNN可取代所有模型
D. 機器學習模型都必須是神經網路
答案:
A
解析:各種模型(線性、樹、貝氏、SVM、神經網路等)都在不同情境有優勢,應依需求與資料特性選擇。
由講義出題:No(外部延伸參考)
使用隨機森林 (Random Forest) 時,若樣本數很多但特徵非常少,模型會怎樣?
A. 會失效,無法預測
B. 仍可投票,不過若特徵太少,也可能受限難以提升效果
C. 一定表現更好
D. 與特徵多少無關
答案:
B
解析:RF需依賴特徵隨機抽樣來形成多樣性,若特徵少則樹之間差異化不明顯,效果有限。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第210頁)
「One-Class SVM」可用於何種情形?
A. 偵測只有一類樣本的異常狀態,如異常偵測
B. 分類多類問題
C. 多元線性回歸
D. 僅做增強學習
答案:
A
解析:One-Class SVM在只有正常樣本資料情況下學習該分佈,若有異常則判定為外部樣本。
由講義出題:Yes(參考:01_AI基礎理論_講義.pdf 第110頁)
在RNN中為處理長期依賴而提出的「LSTM (Long Short-Term Memory)」其核心為?
A. 透過細胞狀態 (Cell State) 與門機制 (Gates) 來保留/忘記資訊,維持長期記憶
B. 只是一種線性變換
C. 與RNN相同
D. 只能短序列
答案:
A
解析:LSTM用門機制控制資訊流動,減輕梯度消失問題,能捕捉較長距資訊。
由講義出題:No(外部延伸參考)
「GRU (Gated Recurrent Unit)」與 LSTM 的差異在?
A. GRU更複雜多了輸入輸出門
B. LSTM只有一個門
C. GRU結構更精簡,只含Update/Reset門,沒有獨立Cell State
D. 二者毫無差異
答案:
C
解析:GRU簡化了LSTM結構(合併Cell + hidden state),只需兩個門,計算更快,但效果近似。
由大綱出題:Yes(初級大綱.txt - L11302 常見的機器學習模型)
若訓練一個多層感知器 (MLP) 來做分類,常用的輸出層激活函式是什麼?
A. ReLU
B. Tanh
C. Softmax,用來生成多類別機率分佈
D. Sigmoid
答案:
C
解析:多類分類最後一層通常用Softmax將輸出映射到(0,1)且總和=1的機率向量。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第220頁)
「多標籤分類 (Multi-label Classification)」與多類別 (Multi-class) 有何區別?
A. 多標籤:同一樣本可同時屬於多個標籤;多類別:每樣本僅屬其中一類
B. 兩者相同
C. 多標籤=多類別
D. 一定使用樹模型
答案:
A
解析:多類別是單選一;多標籤則允許一個樣本同屬數個標籤(如同時包含音樂與體育)。
由講義出題:No(外部延伸參考)
做KNN回歸時,若K太小,會?
A. 易過度貼合局部雜訊,導致過擬合
B. 更能泛化
C. 與K無關
D. 只影響分類
答案:
A
解析:K值很小就只考慮很少的鄰居,容易受異常值影響;K太大則忽視細節。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第230頁)
在影像辨識中,傳統方法與CNN最大的差異是?
A. 傳統需手工設計特徵(Canny、SIFT等),CNN能自動學習卷積核抓取階層特徵
B. CNN也需人工定義特徵
C. 沒有差別
D. 傳統方法更適合大數據
答案:
A
解析:CNN能以大量數據自動抽取影像特徵,取代人工設計邊緣/角點等特徵。
由講義出題:Yes(參考:01_AI基礎理論_講義.pdf 第105頁)
在圖像分類裡常見的「VGGNet」「ResNet」「Inception」都是?
A. CNN網路架構,用於深度影像辨識
B. 強化學習模型
C. RNN變體
D. Bagging集成
答案:
A
解析:VGG、ResNet、Inception都是不同時期的CNN結構,大幅提升ImageNet分類精度。
由大綱出題:Yes(初級大綱.txt - L11302 常見的機器學習模型)
若要進行「序列文字生成」,下列哪種模型較常被使用?
A. RNN/LSTM/Transformer等序列模型
B. 決策樹
C. 卷積神經網路
D. SVM
答案:
A
解析:文字生成需考慮上下文序列,RNN/LSTM/GRU可用於此,近年Transformer效果更好。
由講義出題:No(外部延伸參考)
「Softmax 回歸 (Softmax Regression)」與「Logistic Regression」關係?
A. Softmax是一種擴展版,用於多類別;Logistic是二元
B. 無關
C. Softmax只能用於回歸
D. Logistic可同時做多類別
答案:
A
解析:Softmax回歸(多元邏輯迴歸)將二元logistic擴展到多類型。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第240頁)
「層次式分群 (Hierarchical Clustering)」與 K-Means 最大差異?
A. 層次式分群不需先設定 K,可形成樹狀叢集結構;K-Means需指定 K
B. 層次式一定快於K-Means
C. K-Means不需K
D. 層次式只能2群
答案:
A
解析:Hierarchical可由下而上(凝聚)或上而下(分割)形成樹狀叢集,不必預先給定群數。

"
由講義出題:No(外部延伸參考)
「One-vs-One (OvO)」策略在多類分類中做法是什麼?
A. 對所有類別同時做單一分類器
B. 每兩類組合都訓練一個分類器,最終投票
C. 只對一類做預測
D. 與OvR相同
答案:
B
解析:在C個類別時,OvO需 C(C-1)/2 個二分類器,最終以投票決定。
由講義出題:Yes(參考:01_AI基礎理論_講義.pdf 第115頁)
「增強式學習 (Reinforcement Learning)」在AlphaGo那樣的棋類應用中做法為何?
A. 圍棋動作對應獎勵/懲罰,透過自我對弈不斷試錯學到最優策略
B. 只靠監督式標籤
C. 用分群演算法
D. 無法達到超人水準
答案:
A
解析:AlphaGo結合深度學習與增強式學習,在對弈過程中不斷調整策略以最大化勝率。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第250頁)
在生成式模型中,「VAE (Variational AutoEncoder)」與GAN的差別?
A. VAE以概率圖模型方式學習隱變量分布;GAN透過生成器與判別器對抗
B. 兩者原理相同
C. VAE不生成資料
D. GAN不包含生成器
答案:
A
解析:VAE透過最大化邊界似然(ELBO)學隱變量分布;GAN以對抗方式學到映射,兩者皆能生成資料,但方法不同。
由講義出題:No(外部延伸參考)
若在預測股市漲跌時,打算用「SVM + RBF核」處理。RBF核的參數 gamma 代表?
A. 控制高斯函式影響範圍,值越大越關注局部
B. 學習率
C. 不影響結果
D. 只在回歸模式有用
答案:
A
解析:RBF 核 K(x,x')=exp(-gamma||x-x'||^2),gamma越大,距離影響急劇衰減,更局部化。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第260頁)
做序列標注(如詞性標注、命名實體識別)時,哪種模型常被使用?
A. K-Means
B. CRF (Conditional Random Field) 或 Bi-LSTM-CRF 等序列模型
C. CNN圖像
D. 隨機森林
答案:
B
解析:CRF能同時考慮上下文標籤依存;Bi-LSTM-CRF則結合RNN與CRF處理序列標記。
由講義出題:Yes(參考:01_AI基礎理論_講義.pdf 第120頁)
自然語言處理近年崛起的「Transformer」架構依賴什麼關鍵機制?
A. Self-Attention(自注意力)機制,可同時關注序列不同位置
B. RNN階層
C. CNN卷積層
D. 僅線性層
答案:
A
解析:Transformer不使用RNN/CNN,而以多頭注意力並行處理上下文,成為NLP主流。
由講義出題:No(外部延伸參考)
「半監督式學習」與「遷移學習 (Transfer Learning)」差別為何?
A. 半監督:少量標籤+大量無標籤同分佈資料;遷移:從不同但相關領域的已訓練模型遷移
B. 兩者相同
C. 遷移學習需完全相同資料
D. 半監督要求不同領域
答案:
A
解析:半監督是在同一領域內使用無標籤資料;遷移是從其他領域或任務的模型/權重來適應新任務。
由大綱出題:Yes(初級大綱.txt - L11302 常見的機器學習模型)
「餘弦相似度 (Cosine Similarity)」經常應用於?
A. 數值回歸
B. 文字向量或高維稀疏向量的相似度量
C. 只用於決策樹
D. CNN卷積核
答案:
B
解析:在文本向量或高維嵌入中,常用cosine量度角度差異,避免量級差影響。
由講義出題:No(外部延伸參考)
L1正則 (Lasso) 有助於特徵選擇,原因是?
A. L1會推動部分權重降至0,達到稀疏化效果
B. 與特徵無關
C. 使權重變很大
D. 只能用在樹模型
答案:
A
解析:L1懲罰|w|之和,小權重更易被壓到0,等於自動刪除不重要特徵。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第280頁)
「Stacking (堆疊集成)」的一般流程是?
A. 訓練多個初級模型,將其預測結果作為次級模型的輸入特徵,再輸出最終預測
B. 與Bagging相同
C. 用於回歸時無法集成
D. 只需要單一模型
答案:
A
解析:Stacking先訓練N個模型,將它們對驗證集的輸出形成新的特徵,再訓練一個meta模型去做最終預測。
由講義出題:No(外部延伸參考)
在二元分類中,若正類樣本極少,可能需要關注哪種指標?
A. Accuracy即可
B. Precision, Recall, F1 等不平衡度量
C. ARIMA
D. 無需關注
答案:
B
解析:不平衡問題下Accuracy不可靠,建議觀察Precision, Recall, F1, AUC等指標。
由大綱出題:Yes(初級大綱.txt - L11302 常見的機器學習模型)
若某模型對有些特徵相當敏感,表示什麼?
A. 代表該特徵不重要
B. 可能該特徵對結果有重大影響,或模型依賴此特徵較高
C. 與模型無關
D. 需刪除該特徵
答案:
B
解析:敏感表示該特徵一變動就改變預測,顯示它對決策非常關鍵,但也要留意過擬合風險。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第290頁)
深度強化學習 (Deep Reinforcement Learning) 結合了哪兩種思路?
A. 深度神經網路自動特徵 + 強化式學習環境獎懲
B. KNN與Bagging
C. GBDT與PCA
D. 僅用RNN
答案:
A
解析:如DQN等方法,用神經網路替代Q表來近似策略或價值函式,並在環境中透過獎懲學習。
由講義出題:No(外部延伸參考)
在PCA中,若我們選前k個主成分,能保留多少資訊?
A. 看對應特徵值(variance)累積比例,可決定多少方差被保留
B. 一律100%
C. 不知道
D. PCA不處理資訊保留
答案:
A
解析:PCA根據特徵值大小排序主成分,每個主成分對應一部分總方差,前k個累加即保留多少資訊。
由講義出題:Yes(參考:01_AI基礎理論_講義.pdf 第125頁)
在文本分析中,常將字詞轉為 embedding,如Word2Vec, GloVe, BERT embedding,其好處?
A. 可將語意相近詞映射到向量空間中距離更近,更具語意資訊
B. 僅回傳字串
C. 跟傳統One-hot無差
D. embedding無語意
答案:
A
解析:embedding能學習詞與詞之語意相似度;傳統One-hot則無法表達詞語之間的關聯。

"
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第300頁)
哪種技術能量化特徵對預測結果的重要度,並不局限於樹模型?
A. SHAP (SHapley Additive exPlanations)
B. 只用Gini index
C. PCA
D. 沒法解釋
答案:
A
解析:SHAP基於賽局理論,能對任意模型(樹、深度網路、線性等)衡量各特徵對個體預測的貢獻度。
由講義出題:No(外部延伸參考)
做深度CNN時,增加多少層就越好嗎?
A. 需要平衡參數量與訓練資料,過深可能梯度問題或過擬合
B. 絕對層數越多越準
C. 完全不影響
D. CNN通常只有一層
答案:
A
解析:深層CNN確有更強表現力,但也面臨梯度消失或資料不足導致過擬合等問題,需要架構(如ResNet)或正則化助力。
由大綱出題:Yes(初級大綱.txt - L11302 常見的機器學習模型)
「Mini-Batch Gradient Descent」在大型資料中很常用,原因是?
A. 平衡了批量GD的穩定性和SGD的速度,可以分批處理以減少記憶體負擔
B. 數值更不穩定
C. 只能小數據使用
D. 不適用GPU
答案:
A
解析:大型資料無法一次載入記憶體,mini-batch能並行計算梯度,兼顧效率與穩定。
由講義出題:No(外部延伸參考)
「對比學習 (Contrastive Learning)」在自監督學習中做什麼?
A. 將相似樣本拉近,不相似樣本推遠,學到更好的表徵
B. 做監督式標籤
C. 與自監督無關
D. 僅用在樹模型
答案:
A
解析:對比學習(contrastive)廣泛用於圖像、語言表徵學習,如SimCLR等,無需人工標籤也能學到有意義的向量表示。

"
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第310頁)
下列何者最能代表「貝氏網路 (Bayesian Network)」的特徵?
A. 以有向圖表示隨機變量間的條件獨立性,可對機率推理與不確定性建模
B. 與條件機率無關
C. 僅能做監督式學習
D. 只用於強化式
答案:
A
解析:貝氏網路將變量與邊表徵條件依賴關係,可用於推斷/預測/診斷等機率圖模型應用。
由講義出題:No(外部延伸參考)
「對抗範例 (Adversarial Example)」對深度模型是什麼含意?
A. 人類看似無差的輸入,通過微小擾動便可導致模型誤判
B. 增強模型穩定
C. 與深度學習無關
D. 測試集保留
答案:
A
解析:對抗範例利用深度模型對特徵分布敏感性,使輸入加少量雜訊就能欺騙模型。

"
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第320頁)
做推薦系統常見的協同過濾 (Collaborative Filtering) 有哪兩種?
A. 基於記憶(Memory-based)與基於模型(Model-based),前者例:UserKNN;後者例:矩陣分解
B. 只有User-based
C. 僅回歸
D. 與推薦無關
答案:
A
解析:協同過濾分Memory-based(如UserCF/ItemCF)和Model-based(如SVD矩陣分解,NN等)。
由講義出題:Yes(參考:01_AI基礎理論_講義.pdf 第130頁)
「對比學習 (Contrastive Learning)」與「GAN (Generative Adversarial Network)」最大不同點是?
A. 對比學習主要在embedding空間分辨相似/不相似樣本;GAN在生成器與判別器對抗產生新資料
B. 兩者均用判別器
C. 都是監督式分類
D. 相同原理
答案:
A
解析:對比學習在學習表徵(embedding);GAN在學習生成分佈。兩者皆稱「對抗」,但機制用途不同。
由講義出題:No(外部延伸參考)
決策樹若樣本含大量類別特徵時,如何最佳處理?
A. 無需任何轉換
B. 大多樹實作需將類別特徵做One-Hot或Target Encoding,而像CatBoost有內建處理
C. 不能處理類別
D. 樹並不受類別特徵影響
答案:
B
解析:常見樹實作(CART,RF,XGBoost等)對類別特徵無內建支援,需轉換;CatBoost可直接處理類別特徵。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第340頁)
「樸素貝氏 (Naive Bayes)」為何稱作"樸素(naive)"?
A. 計算複雜
B. 假設特徵在給定類別後彼此條件獨立,這在現實中往往太過簡化
C. 一定最精確
D. 與條件獨立無關
答案:
B
解析:此「樸素」指簡化假設特徵之間不相關,但實務仍能取得不錯效果。
由講義出題:No(外部延伸參考)
做異常檢測 (Anomaly Detection) 常可用?
A. 監督式標記
B. One-Class SVM, Isolation Forest, 或自編碼器(重建誤差)等
C. 只能K-Means
D. 回歸
答案:
B
解析:異常檢測常採用無(或少)標籤的方式,如One-Class SVM, IsolationForest(樹法), 自編碼器(看重建差)。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第360頁)
面對高維稀疏特徵(如廣告點擊預測),哪種模型常見?
A. LR、FM (Factorization Machines)、FFM等,能處理大量稀疏編碼
B. RNN
C. DBSCAN
D. CNN
答案:
A
解析:廣告CTR預測常用LR或FM等表格模型處理大量one-hot稀疏特徵;FM可以學到特徵交互。
由講義出題:Yes(參考:01_AI基礎理論_講義.pdf 第140頁)
深度Q網路 (DQN) 是結合了何者?
A. Q-learning (強化學習) + 深度神經網路,用網路近似Q函式
B. 監督式回歸
C. CNN做分群
D. Lasso回歸
答案:
A
解析:DQN在 Atari等遊戲中大放異彩,透過CNN將畫面映射成狀態,再以Q-learning策略學習。

"
由講義出題:No(外部延伸參考)
集成學習中,「多樣性 (diversity)」為何重要?
A. 若各模型錯誤模式不同,最終投票或加權效果更佳
B. 只用同樣模型和資料
C. 與集成無關
D. 不可改變
答案:
A
解析:若所有模型彼此相似就無法互補,故需要模型或訓練資料具多樣性來提高最終結果。
由大綱出題:Yes(初級大綱.txt - L11302 常見的機器學習模型)
做「時間序列預測 (Time Series Forecasting)」時,若使用樹模型 (如XGBoost) 該注意?
A. 需將時序資訊特徵化(如滯後值、移動平均等) 並避免未來資訊洩漏
B. 和普通回歸一樣
C. 可以隨機打亂樣本
D. 不用資料預處理
答案:
A
解析:樹模型本身並不理解時間,需人工構建時序特徵(如前n步值...)且要確保訓練不包含未來。
由講義出題:No(外部延伸參考)
「貝氏決策理論 (Bayesian Decision Theory)」在分類時強調?
A. 最小化後驗錯誤或期望損失,考量各類別先驗與條件機率
B. 只用線性方程
C. 與先驗無關
D. 僅可做回歸
答案:
A
解析:貝氏決策透過p(y|x)的分佈比較做最小風險決策,也可依成本矩陣挑選最優類別。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第370頁)
若你在深度模型上看「測試損失」不斷升高,但「訓練損失」持續降低,代表什麼?
A. 過擬合:模型只在訓練資料越來越好,在測試資料卻越來越差
B. 欠擬合:訓練也差
C. 和深度學習無關
D. 代表模型完美
答案:
A
解析:很典型的過擬合徵兆,應採用正則化或Early Stopping等策略。
由講義出題:Yes(參考:01_AI基礎理論_講義.pdf 第135頁)
「BERT」模型在NLP領域的核心創新是?
A. 雙向Transformer編碼器 + Masked Language Model,能同時看上下文
B. 單向LSTM
C. 僅CNN
D. 不用Attention
答案:
A
解析:BERT以Transformer雙向注意力結構,透過MLM與NSP預訓練學習語言表徵,再下游微調。
由講義出題:No(外部延伸參考)
在KNN中,若要對鄰居做加權通常依據?
A. 與測試樣本的距離,越近權重越大
B. 權重全相同
C. 隨機分配
D. 與KNN無關
答案:
A
解析:在加權KNN中,距離越近表示相似度越高,給予更大的權重。
由大綱出題:Yes(初級大綱.txt - L11302 常見的機器學習模型)
「線性判別分析 (LDA)」的核心思路是?
A. 在可分離投影空間上最大化類別間距離,最小化類別內距離
B. 僅做分群
C. 僅做迴歸
D. 不考慮類別內距離
答案:
A
解析:LDA要找一條投影方向,使不同類分離度最大,同類緊密度最小,可用於降維或分類。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第380頁)
在機器學習比賽或實務中,為何常最後用「集成 (Ensemble)」方法?
A. 能綜合不同模型的優勢,通常可提升預測分數或穩定度
B. 單模型必然最好
C. 集成必然過擬合
D. 只適用文字分類
答案:
A
解析:競賽中常見Blending/Stacking方法,實務可提高穩定性與效能,但成本較高。
由講義出題:No(外部延伸參考)
「GMM (Gaussian Mixture Model)」在分群中是?
A. 用多個高斯分佈混合擬合資料分布,常用EM演算法估參數
B. 僅用樹結構
C. K-Means的變形,無高斯概念
D. 與機率無關
答案:
A
解析:GMM假設樣本來源於不同高斯分佈,透過EM算法估各成分的均值、協方差、混合權重來做分群。
由講義出題:Yes(參考:04_機器學習技術理論與案例_講義.pdf 第400頁)
綜觀「L11302 常見的機器學習模型」整體要點,下列哪句最能總結?
A. 各模型(線性、樹、貝氏、SVM、深度網路...等)在不同資料型態有其優勢,應靈活應用並考慮泛化、可解釋性等
B. 只要CNN
C. K-Means適合全部任務
D. SVM絕對優於所有方法
答案:
A
解析:沒有萬能模型,需依據資料規模/性質及應用情境,選擇或集成不同模型來達成最佳效能。